多因素回归不能用逐步回归法？那么我该怎么办？

Original 郑卫军医学论文与统计分析 2022-10-07

统计小食系列（10）

回归方法用来探讨疾病发生、发展和预后等结局的影响因素、控制混杂偏倚，也可以用于预测疾病结局。

回归方法实在用途太广了！它是医学、护理学、公共卫生、心理学、社会学的基本方法，应该说无论哪一类统计学研究都会用到回归方法。写论文，这是绕不过去的！

所有的医学统计学教材都会涉及到回归，教大家如何建模，讲得非常之专业，留下的是瞠目结舌的阅读者。学不会，怎么办？回归方法虐了一代又一代的年轻人，但最后貌似大家还是学会了用它来写论文。看起来不错。

一般建回归模型，用的是先单因素后多因素的方法，也就是先一个一个自变量做单因素回归，把P值较小（比如P<0.2）纳入多因素回归模型，再结合逐步回归法进行自变量筛选分析。

咋就要先单因素再多因素，为什么要P值<0.2? 师兄会说，这是祖传的，你照做就行。

但都没有人告诉我们，我们学的这种回归建模技术是不一定对的。更重要的是，被称为很巧妙的逐步回归法，它基本上没有什么卵用！

在之前，郑老师的推文：多因素回归要不要做逐步回归法？美国top杂志《内科学年鉴》给出答案。里面说，医学论文不要用逐步回归法！

好多朋友问我：为什么？那我们应该用什么方法来建模型？

好，我系统地梳理下，方便大家学习。如果你看完觉得郑老师写得真好，别竖大拇指了，我看不见；也别给我送钱了，咱们浙江中医药大学有的是钱！给我个文章分享即可！

1.为什么先做单因素，再做多因素？

我们一定要先单因素后多因素吗？不是的。先单后多，是因为，回归模型要遵循一个基本原则：模型自变量越少越好！为什么？因为回归分析自变量太多，建模会失败。一把来说，一个线性回归模型，需要5-10以上的样本量；logistic需要10-15倍的样本量。那么有限的样本量，你不能一下子把所有的感兴趣的变量全部放进去，那样肯定无法成功形成回归模型。所以只好挑选有可能有统计学意义的自变量纳入？怎么挑？先做单因素吧，把P值较小的纳入多因素回归！

但一定要先单后多吗？不一定，如果你样本量很大，自变量个数也不多，完全没有必要！毕竟，先单后多肯能会让你遗漏本来会有统计学意义的变量。

2.逐步回归法到底有什么用？

不可否认的是，逐步回归法是个好方法，它遵从的原则，就是模型自变量越少越好！但是，自变量少了肯定有问题，怎么办，它就提出另外一个筛选原则：通过反复挑选自变量，使得模型的模拟度（也就是对真实世界研究的仿真度）不差、且自变量个数最少。一般模拟度采用用R2（R平方）或者-2log对数似然比评价。

也就是，它通过操作，挑选出少数的自变量，就可以构建一个对真实世界研究很好预测功能的方程。看起来也很美好！筛选简单的几个变量就可以预测乳腺癌发病风险，多好！

国内生物统计学泰斗，中山大学方积乾教授说：对于要筛选变量，建立一个用于预测健康结局的回归方程，逐步回归法是一种优秀的方法。

因此，我不是说逐步回归法不好用。

3.为什么逐步回归法不适合大多数的医学研究

事实上，大多数医学研究采用回归分析并不是建立一个预测模型，更主要探讨：影响疾病发生或预后的结局的因素是什么、或者控制混杂因素，重点聚焦某一个因素对疾病结局的作用。基本上，大多数模型的模拟度会很小（比如R2不到0.2），但不妨碍我们建一个回归模型。我们也不看重模型对现实世界的仿真度，一般只探讨，这些变量对结局是否有影响（P是否小于0.05），或者b值是否不等0、OR值、RR值是否不等于1。

此时，逐步回归法则是一种粗暴的手段，它无视自变量之间的相互关系，完全是数据导向，非常有可能淘汰本来对疾病结局有影响、但不是那么重要的因素。

打个比方，我们学院医学统计学教研室就是一个回归模型，自变量就是我们教员，逐步回归法的意思，是学校不管教员之间的关系如何，是不是偷懒，它只要求，一年你们把所有的医学统计学课程全部拿下，不出事故，完成既定的科研任务；一旦如此，你们每个人上多少课、你们之间是否勾心斗角，学校是不管的。领导们就撂下一句话：你们自己问题自己解决。

所以，我经常跟学生说，逐步回归法是Garbage in，Garbage out的方法，不是什么好东西

4.我该用什么方法进行回归自变量筛选？

有人会问，郑老师，逐步回归法不是解决多重共线性吗？万一有多重共线性怎么办?

很遗憾，国内医学统计学教学很少介绍多重共线性处理，哪怕是研究生教学；国内教学往往只说多重共线性和及其处理手段，好像也不提为什么会有多重共线性。

多重共线性究竟怎么产生？

其主要是自变量之间相关，甚至是高度相关。那么为什么自变量会相关？常见有三点原因引起多重共线性：1.存在着混杂因素会相关；2存在着中间变量会相关、3、存在着共同原因会相关。最常见的是前两者。

举例：若研究者对一组研究对象开展队列研究，基线测量胰岛素、基线血糖水平、随访病人是否患有糖尿病，2年后监测其血糖水平。探讨随访血糖的影响因素，如果用箭头表示因果关系。大家可以看出，自变量胰岛素、基线血糖、糖尿病直接存在着复杂的关系，有些是中间变量，有些是混杂变量。

实际上，我们在探讨影响因素时，必须要考虑的情况是，第一，混杂因素必须纳入模型，第二，中间变量又不能纳入模型。

所以多重共线性问题的确应该要重视起来。但如果你认为存在着多重共线性，就采用逐步回归法，显然会乱杀、错杀，结果可能没有你想象那么好。

那我应该用什么方法？